5 Steps of A/B Testing AB測試的5個步驟
Step One: Define success 想清楚啥叫“成功”
Step Two: Identify bottlenecks 找出使用者卡在哪兒
Step Three: Construct a hypothesis 想出能改善的點
Step Four: Prioritize 選最重要的去做
Step Five: Test 上線測試
Step One:Define Success 定義成功
要想成功開展A/B測試,你需要先回答一個具體的問題:你的網站到底是為了什麼存在?如果你能讓網站在某一方面做得更好,那會是哪方面?“最重要的一個目標”,而非模糊或泛泛地最佳化一切。
如果你對這個問題的答案還不清楚,有一個小技巧可能會幫上忙。想象下面這段對話:
ALICE:"What do you want to achieve with A/B testing?"“你們做測試是想達到啥效果?”
BOB:"We don't know. We don't know what we want our website to do."“我們也不清楚啊。”
ALICE:"Why don't you take it down?"“那乾脆把網站關了?”
BOB:"Of course not! We need our website because it—"“那不行!我們的網站還得——”
然後BOB就會頓悟,意識到網站不是為了“別人有我也得有”,而是真有它的用處。在A/B測試中定義“成功”,就是把你對網站終極目標的回答,轉化為更加明確、可量化的成功指標。
對於電商企業來說,以“每位訪客帶來的收入”來定義成功指標相對簡單。而對於募捐網站來說,可以用“每位訪客的平均捐款額”來作為成功指標。谷歌那邊就會看“跳出率”,也就是使用者開啟搜尋結果後啥都不點就走了。跳出率高可能說明搜尋結果太爛了,但也可能是太好了,使用者一眼就找到答案,不用點。
常見網站的四種典型指標

| 網站型別 | 描述 | 常見轉化 & 彙總目標 |
|---|---|---|
| 電商(E-Commerce) | 一個為使用者提供線上購買商品的網站 | - 完成購買 - 結賬流程中的每一步 - 加入購物車 - 產品頁面瀏覽量 |
| 媒體/內容(Media/Content) | 一個專注於文章或其他內容消費的網站 | - 頁面瀏覽量 - 文章閱讀量 - 跳出率(在 A/B 測試工具中,常透過使用者是否在頁面上點選來衡量) |
| 潛在客戶獲取(Lead Generation) | 一個透過收集姓名等資訊來獲取業務的網站 | - 表單填寫完成 - 點選進入表單頁面(如“聯絡我們”) |
| 捐贈(Donation) | 一個以收集捐款為目標的網站 | - 表單填寫完成 - 點選進入表單頁面(如“傳送捐贈”) |
Macroconversions, Microconversions,and Vanity Metrics 宏觀轉化、微觀轉化和虛榮指標
市場專家阿維納什把轉化分成兩種:一種是宏轉化,跟你網站的核心目標直接相關;另一種是微轉化,使用者做的那些小動作。微轉化像點按鈕、看影片、留言這些,雖然沒法立馬帶來收益,但處理好也能帶來間接好處。
要小心那些看起來很好但實際上沒用的資料。舉個例子:一家B2B軟體公司想透過部落格來建立專業形象。他們已經在主網站做了測試,現在想最佳化部落格。主網站的目標很簡單,增加免費試用註冊量。但部落格的目標就不那麼容易衡量了,他們不確定什麼才算成功。
比如標題點選量,這看起來是個不錯的資料,但可能會誤導你。使用者可能只是被誇張的標題吸引才點選,進去後什麼都沒看就離開了。光看點選量並不能反映文章質量。真正有價值的指標是:使用者是否評論、分享、點選底部按鈕,或者是否多次訪問。如果你沒有明確的目標,很容易被那些"好看但沒用"的資料誤導。
Step Two: Identify Bottlenecks 識別瓶頸
團隊得統一目標,搞清楚啥指標才算“成功”。當時大家都覺得放影片最好,直到團隊統一了“有效”的標準,才能做出靠譜的決策。

當你知道了網站要達成什麼目標,接下來就該看資料,找出使用者在哪一步掉隊最嚴重,卡在哪兒出不來了。2007年奧巴馬競選時,我們雖然網站流量不大,但用GA一看漏斗圖,發現了點東西。網站訪問的人不少,廣告投得也行,而且只要拿到郵箱,後面捐款的效果就很好。問題卡在讓人留下郵箱這一步。也就是說,這一步是大機會點,值得重點最佳化。

最後我們拿到了1000萬個郵箱,其中有280萬是透過改版測試額外帶來的。郵箱裡10%的人後來成了志願者,相當於28萬人。最讓人震驚的還是錢,捐款的漲幅太猛了。我們知道有郵箱就能募到錢,所以直覺告訴我們:多拿郵箱,就多拿錢。果不其然,最後多募了5700萬美元。
Step Three: Construct a Hypothesis構建假設
找出瓶頸後,結合對使用者意圖的理解來提出測試假設。可透過訪談、問卷、焦點討論等了解使用者真實想法。
2010年1月,海地遭遇歷史第二嚴重地震。克林頓和小布什成立"海地賑災基金"籌款救援,匆忙搭建的捐款頁面每天吸引數百萬訪問,但人手不足,僅靠一位IT人員支撐。
他們向我們求助。這個高流量、目標明確的頁面是理想的A/B測試物件。我們爭分奪秒,邊測試邊搭建系統。我們選擇"每次頁面瀏覽帶來的捐款金額"作為成功指標,避免捐款轉化率與平均捐款額相互犧牲。我們選這個指標,就是為了直接給組織創造更多價值。
:有了目標,我們就去找頁面上到底哪塊最該動手。卡在哪一步了?為什麼錢沒進來?不是沒人來,是人太多了,網站都快崩了。整個網站其實就一個捐款頁,那問題肯定就出在這個頁面裡頭。原始頁面就是一堆白底空格,看著像填稅表一樣。我們想象了一下使用者的感受,猜他們可能覺得這個頁面太冷、太空、太抽象。

我們猜想,加張災區照片能讓頁面更有溫度,說不定能讓人更想捐錢,也可能捐得更多。

測試結果出人意料,加圖後每次瀏覽的捐款反而減少了。這證明測試前要有明確假設,否則失敗時無法分析原因。若我們盲目嘗試,看到效果不佳就放棄,將錯失學習機會。
進一步分析發現,問題可能是圖片尺寸過大,將捐款表單推到了頁面下方,需要滾動才能看到。我們又想,要是把圖片放到表單旁邊,不擋著它,效果會不會不一樣?這個新測試能讓我們搞清楚問題到底出在哪兒?是圖片害的,還是排版的鍋。

最終結果顯示,這種雙欄佈局帶來的捐款金額不僅遠遠超過了之前那個失敗的“單欄+圖片”版本,更重要的是,它的表現也顯著優於原始版本的表單頁面。最終,這種新的頁面佈局共計為海地額外籌集了超過100萬美元的救援資金。
有了假設,測試才有方向,也才能告訴你答案是不是你想知道的。沒有假設就瞎測,最多看到表面變化,根本學不到真東西。測試本來就會越做越多問題,但只要你有假設,它就能帶你走向下一個更清晰的問題。測試失敗了也沒事,往往正是失敗幫你看清問題在哪兒。
想出有用的假設不簡單,因為使用者的行為太難預料了。不管有多複雜,只要用科學的方法去做測試,你就能越來越瞭解你的使用者。:克林頓基金會的募款負責人說:“這種災難面前,每一秒都關鍵,每一塊錢都重要。”“48小時不到,我們就測試了8個版本,最終多募了102萬美元。”
Step Four: Prioritize 優先排序
當你有了好幾個想試的點,就得用點經驗和判斷,排出優先順序,看哪個改動最可能帶來大提升。凱爾·拉什說:“排測試優先順序時就看一條,哪個測試最賺錢最划算。”理想情況當然是啥都測一遍,但現實里人少、錢少、時間緊,流量也不是無限的。所以你必須選重點,不然啥都想試,最後啥也做不好。
第一次做測試時,還得想辦法爭取老闆和同事支援,也別一上來就搞太複雜的東西。測試要有先後,不是想啥試啥。你得根據三樣東西來決定測不測:你想最佳化的關鍵指標、使用者卡在哪、你覺得他們為啥卡那兒。
Step Five: Test 執行測試
前面都準備好了,現在就差動手開始測試了。你把使用者隨機分組,有人看新版本,有人看舊版本,然後看哪邊表現好,用你設定的標準來比。等你資料量夠了,達到統計標準,你就能知道到底哪個版本更好。
TL;DR 小結
- 不先定好評判標準,就沒法知道哪個版本贏了。
- 轉化目標很多,別亂選,要選對你有意義的那個。
- 看資料 + 靠經驗,一起找出使用者流失的關鍵點。
- 多瞭解使用者怎麼想,就更容易想出好點子去改東西。
- 測啥先測啥,得看你覺得哪個最有可能帶來大提升。
- 動手去測,不斷最佳化,直到你覺得再改也帶不來多少提升了。